1
От статистической правдоподобности к выпуклым программам
MATH008Lesson 7
00:00

Статистическое выводение задаёт вопрос: «Учитывая эти данные, какие параметры наиболее вероятны?» Эта слайд-презентация связывает этот вопрос с выпуклой оптимизацией. Мы преобразуем вероятностное понятие правдоподобия в структурированную программу, показывая, что при условии лог-вогнутости поиск наилучшей оценки эквивалентен решению задачи выпуклой оптимизации.

Фреймворк правдоподобия

Функция правдоподобия — это функция вероятностного распределения $p_x(y)$, рассматриваемая как функция параметра $x$ для фиксированной наблюдаемой выборки $y$. Чтобы оценить $x$, мы используем оценку максимального правдоподобия (ML): выбор значения, которое делает наблюдаемые данные наиболее вероятными.

$$\hat{x}_{ml} = \text{argmax}_x p_x(y) = \text{argmax}_x l(x)$$

Для повышения вычислительной эффективности мы используем логарифмическую функцию правдоподобия, $l(x) = \log p_x(y)$. Поскольку логарифм — монотонно возрастающая функция, он сохраняет положение максимума, превращая произведения (из независимых наблюдений) в простые суммы.

Программа оптимизации МПО (7.1)

Мы формализуем оценку как математическую программу:

$$\begin{array}{ll} \text{максимизировать} & l(x) = \log p_x(y) \\ \text{при условии} & x \in C \end{array}$$ (7.1)

Эта программа является задачей выпуклой оптимизации если:

  • Логарифмическая функция правдоподобия $l$ является вогнутой для каждого значения $y$.
  • Допустимое множество $C$ (информация до эксперимента) описывается линейными равенствами и выпуклыми неравенствами.

Интеграция ограничений и априорных знаний

Оценка максимального правдоподобия требует переопределения $p_x(y)$ как нуля при $x \notin C$, чтобы явно учесть физические или априорные ограничения. В пространстве оптимизации это означает, что функция логарифмического правдоподобия принимает значение $-\infty$ для параметров $x$, нарушающих эти ограничения, фактически создавая непреодолимый барьер для оптимизатора.

🎯 Основной принцип
Переход от «оценки максимального правдоподобия» к «выпуклой программе» зависит от вогнутости логарифма плотности. Если шум или распределение лог-вогнутое, статистическая оценка становится задачей глобальной оптимизации.